 https://neculaifantanaru com/en/the-glow-of-a-sensation-of-reawakening html (fără regularizare) Rețineți că soluția în ansamblu nu este unică: în general, atunci când datele sunt separabile liniar, există un număr infinit de hiperplane care le pot separa Capitolul Introducere în rețelele neuronale artificiale Rețineți că, spre deosebire de clasificatoare bazate pe pe regresia logistică, perceptronii nu dau probabilitatea unei clase; în schimb, ei fac doar predicții bazate pe un prag dur Acesta este un motiv bun pentru a prefera regresia logistică față de perceptroni probleme banale (de exemplu, problema de clasificare bazată pe , prezentată în stânga în Fig ) Desigur, acest lucru este valabil și pentru orice alt model de clasificare liniară (cum ar fi clasificatorii bazați pe regresia logistică), dar cercetătorii se așteptau mult mai mult de la perceptroni, așa că dezamăgirea lor a fost uriașă: ca urmare, mulți cercetători au încetat cu totul să studieze rețelele neuronale, preferând sarcini de nivel înalt precum logica , decizie și căutare Cu toate acestea, sa dovedit că unele dintre limitările perceptronilor pot fi eliminate prin stivuirea mai multor perceptroni În special, MLP este capabil să rezolve problema XOR, pe care o puteți verifica prin calcularea ieșirii MLP, prezentată în dreapta în Fig , pentru fiecare combinație de intrări: pentru intrări sau rețeaua produce și pentru intrări sau - Part II Rețele neuronale și învățarea profundă Perceptron multistrat și feedback Perceptronul multistrat (Fig ) constă dintr-un strat de intrare (de la capăt la capăt), unul sau mai multe straturi de elemente LTU numite și un alt strat de elemente LTU numite cu următorul strat Când un ANN are două sau mai multe straturi ascunse, se numește ( Jp Neural - Timp de mulți ani, cercetătorii au încercat fără succes să găsească o modalitate de a antrena perceptronii multistrat În cele din urmă, în acest an, D E Rumelhart et al au publicat o lucrare revoluționară care introduce un algoritm de învățare cu ( ; backpropagation) Astăzi îl putem descrie ca coborâre gradient folosind diferențierea automată în modul invers (coborârea gradientului a fost discutată în capitolul , iar diferențierea automată în capitolul ) „Învățarea reprezentărilor interne prin propagarea erorilor” („Învățarea reprezentărilor interne prin propagarea erorilor”), D Rumelhart, G Hinton, R Williams (Anul) De fapt, acest algoritm a fost inventat de mai multe ori de diferiți cercetători din diverse domenii, începând cu P Wuerbos în anul Capitolul Introducere în rețelele neuronale artificiale | Algoritmul alimentează rețeaua cu fiecare eșantion de antrenament și calculează ieșirea fiecărui neuron din fiecare strat succesiv (aceasta este o trecere înainte, la fel ca și a face predicții) Apoi măsoară eroarea de ieșire a rețelei (adică, diferența dintre ieșirea dorită și cea reală a rețelei) și calculează contribuția fiecărui neuron din ultimul strat ascuns la eroarea fiecărui neuron de ieșire Apoi, algoritmul continuă să măsoare câte astfel de contribuții la eroare vin de la fiecare neuron din stratul ascuns anterior și face acest lucru până când ajunge la stratul de intrare Această trecere înapoi măsoară efectiv gradientul de eroare peste toate greutățile legăturilor din rețea, propagă gradientul de eroare în direcția inversă a rețelei (de unde denumirea algoritmului) Dacă vizualizați algoritmul de diferențiere automată în modul invers în Anexa D, veți descoperi că trecerea de backpropagation și backpass pur și simplu realizează diferențierea automată de backpropagation Ultimul pas al algoritmului de backpropagation este coborârea gradientului peste toate greutățile legăturilor din rețeaua utilizând gradienții de eroare măsurați anterior mai întâi face o predicție (trecere înainte), măsoară eroarea, apoi se deplasează înapoi prin fiecare strat pentru a măsura contribuția de eroare a fiecărei legături (pasare înapoi) și, în final, ajustează ușor greutățile legăturii pentru a reduce eroarea (pas de coborâre a gradientului) ca un astfel de algoritm să funcționeze corect, autorii au făcut o schimbare cheie în arhitectura MLP: au înlocuit funcția pas cu o funcție logistică, cr(z) = /( + exp(-z)) Acest lucru a fost semnificativ deoarece funcția pas conține numai segmente plate, astfel încât gradienții de funcționare sunt absenți (coborârea gradientului nu poate călători pe o suprafață plană), în timp ce funcția logistică are o derivată non-zero bine definită peste tot, permițând coborârea gradientului să progreseze la fiecare pas Algoritmul de propagare înapoi poate poate fi folosit cu alții, nu doar cu funcția logistică Partea II Rețele neuronale și învățare profundă Mai jos sunt descrise două caracteristici populare și activarea tanh (z) = cr( z) Ca și funcția logistică, este în formă de S, continuă și diferențiabilă, dar ieșirea sa variază de la până la (nu de la până la , ca în cazul funcției logistice), care tinde pentru a face ieșirea fiecărui strat este mai mult sau mai puțin normalizat (adică centrat pe ) la începutul antrenamentului Acest lucru ajută adesea la accelerarea convergenței introduse în capitolul ReLU (z) = max ( , z) Este continuă, dar din păcate nediferențiabilă în punctul z= (panta se modifică brusc, ceea ce poate duce la sărituri în coborârea de gradient în vecinătatea unui punct dat) În practică, însă, această funcție funcționează foarte bine și are avantajul unui calcul mai rapid , faptul că nu are o valoare maximă de ieșire ajută și la atenuarea unui număr de probleme în timpul coborârii gradientului (vom reveni la aceasta în capitolul) Funcțiile de activare populare enumerate și derivatele lor sunt prezentate în Fig Al-lea perceptron este adesea folosit pentru clasificare, fiecare ieșire corespunzând unei clase binare diferite (să zicem, spam/nu spam, urgent/neurgent etc ) Când clasele sunt exclusive (de exemplu, clasele de la până la pentru clasificarea imaginilor cu cifre), stratul de ieșire este de obicei modificat prin înlocuirea funcțiilor de activare individuale cu o funcție partajată (oftma:) (Figura ) Capitolul Introducere în rețelele neuronale artificiale | Funcția multivariabilă a fost introdusă în capitolul Ieșirea fiecărui neuron corespunde probabilității estimate a clasei adecvate Rețineți că semnalul curge într-o singură direcție (de la intrări la ieșiri), deci această arhitectură este un exemplu) funcție de activare, care este de ce cercetătorii au rămas cu funcțiile sigmoide pentru o perioadă foarte lungă de timp Dar se dovedește că în rețelele ANN, funcția de activare ReLU funcționează mai bine în general Acesta este un caz în care analogia biologică este înșelătoare Interfața TF Learn compatibilă cu Scikit-Learn bibliotecă Clasa face destul de ușor să antrenați o rețea neuronală profundă cu orice număr de straturi ascunse și un strat de ieșire multivariabil pentru emiterea de probabilități estimate Partea a II-a Rețele neuronale și clase de învățare profundă De exemplu, următoarele Următorul cod antrenează o rețea de clasificare DNN cu două straturi ascunse (unul dintre neuroni și altul dintre neuroni) și un strat de ieșire multivariabil de neuroni: #Classifier (III den rnitn= , n classec= , feature colum nn= eature col ) dnn clf = tf cont , învăț SKCompa: (dnn clf) if TensorFlow >= dnn clf fit( train, y train, batch size= , steps= ) Codul creează mai întâi un set de coloane float din setul de antrenament (alte tipuri de coloane precum coloanele categorice sunt disponibile) Apoi o instanță DBLWC este creată și plasată într-o instanță de ajutor care asigură compatibilitatea cu biblioteca Scikit-Learn În cele din urmă, iterațiile de antrenament sunt executate folosind pachete din mostre Dacă rulați acest cod pe setul de date MNIST (după scalând-o, să spunem folosind o clasă de la Scikit-Learn), atunci veți obține de fapt un model care realizează există aproximativ a corectitudine pe setul de testare! Depășește cel mai bun model antrenat în capitolul: scor de acuratețe y pred = dnn=clf predict( test) scor de precizie(y test, y pred ) " Package ! i " Lob " c ! d conține multe caracteristici utile, dar este un loc pentru stocarea codului experimental care nu este încă pregătit pentru a deveni parte din API-ul principal TensorFlow ) poate fi modificat fără notificare Clasa internă DNNC! Assifier creează toate straturile de neuroni pe baza funcției de activare ReLU (putem schimba funcția de activare setând hiperparametrul fn de activare) Stratul de ieșire se bazează pe o funcție multivariabilă, iar funcția de cost este entropia încrucișată (vezi capitolul ) Capitolul Introducere în rețelele neuronale artificiale | Dacă aveți nevoie de mai mult control asupra arhitecturii rețelei, atunci este posibil să preferați API-ul de nivel scăzut al TensorFlow pentru Python (vezi capitolul ) În această secțiune, folosind acest API, vom construi același model ca înainte și vom implementa o coborâre mini gradient pentru a-l antrena pe setul de date MNIST Primul pas este faza de construire în care este creat graficul TensorFlow Al doilea pas este faza de rulare în care graficul este de fapt rulat pentru a antrena modelul Deci, să începem În primul rând, trebuie să importam biblioteca Apoi avem nevoie de pentru a specifica numărul de intrări și ieșiri, precum și pentru a seta numărul de neuroni ascunși în fiecare strat: ' - * MNIST Apoi, ca în capitolul , puteți utiliza noduri de substituent pentru a reprezenta datele și țintele de antrenament Forma nodului este definit doar parțial Știm că va fi o matrice tensorală bidimensională) cu eșantioane în prima dimensiune și caracteristici în a doua dimensiune și, de asemenea, că numărul de care este x (o caracteristică per pixel), dar încă nu știm câte mostre va conține fiecare pachet de antrenament Deci forma este Nici unul În mod similar, știm că nodul va fi un tensor unidimensional cu un element pe eșantion, dar în acest moment nu știm din nou dimensiunea pachetului de antrenament, deci forma este None = ( , =(None, ), = ) = ( , —(None), = ) Acum să creăm rețea neuronală Nodul substituent va acționa ca strat de intrare; în timpul fazei de execuție, acesta va fi înlocuit cu câte un pachet de antrenament la un moment dat (rețineți că toate mostrele din pachetul de antrenament vor fi procesate de rețeaua neuronală în același timp) Apoi, trebuie să creați două straturi ascunse și un strat de ieșire Două straturi ascunse sunt aproape identice: diferă doar prin intrările conectate și numărul de neuroni conținuti Stratul de ieșire este, de asemenea, foarte asemănător, dar în loc de funcția de activare ReLU, folosește o funcție de activare multivariabilă Așa că vom scrie o funcție care va fi folosită pentru a crea câte un strat la un moment dat Va avea nevoie de parametri pentru a specifica intrările, numărul de neuroni, funcția de activare și numele stratului: ayer(X, n neuroni, nume, activare=Niciuna): tf -iame scops ( am ) : = int ( () ) init = tf " t , r; ww), nbddev^tddcv) = n' : ) = tf Variabila(: f zero jieuron , na- = ) = i f mai mc ( , ) + activare nu este Niciunul: activare(Z) folosind numele stratului, creăm un spațiu de nume: va conține toate nodurile de calcul pentru un anumit strat de neuroni Acest lucru este opțional, dar graficul va arăta mult mai frumos în TensorBoard dacă nodurile sunt bine organizate Apoi obținem numărul de intrări uitându-ne la forma matricei de intrare și extragerea dimensiunii celei de-a doua dimensiuni (prima dimensiune este pentru mostre) Următoarele trei linii creează o variabilă, care va stoca matricea de greutate (numită adesea strat (kgl)) Acesta va fi un tensor bidimensional care conține greutățile tuturor conexiunilor dintre fiecare intrare și fiecare neuron; astfel, forma sa este Variabilă va fi inițializată aleatoriu folosind o distribuție normală trunchiată (Gauss) cu stan Utilizarea unei distribuții normale trunchiate în loc de o distribuție normală obișnuită asigură că nu există greutăți mari care ar putea încetini învățarea Capitolul Introducere în rețelele neuronale artificiale | abaterea standard /^njnputs + nneurons' Aplicarea acestei abateri standard specifice ajută algoritmul să convergă mult mai rapid (vom discuta acest subiect mai detaliat în capitol; aceasta este una dintre acele mici ajustări ale rețelelor neuronale care au un impact uriaș asupra performanței acestora ) toate straturile ascunse aleatoriu pentru a evita orice simetrie pe care algoritmul de coborâre a gradientului nu le-a putut depăși Următoarea linie creează o variabilă pentru distorsiuni inițializate cu o valoare (nu există nicio problemă de simetrie în acest caz), cu un parametru de polarizare per neuron Apoi, creăm un subgraf pentru a calcula Z = X W + b Această implementare vectorizată va calcula eficient sumele ponderate ale intrărilor plus termenul de părtinire pentru fiecare neuron din strat și pentru toate probele din lot într-un singur pas Rețineți că adăugarea unei matrice unidimensionale (b) la o matrice bidimensională cu același număr de coloane (X W) tăiate ltate are ca rezultat adăugarea unui tablou unidimensional la fiecare rând al matricei: aceasta se numește funcția adecvată pentru a crea un strat de neuroni Să-l folosim pentru a crea o rețea neuronală profundă! Primul strat ascuns de intrare ia , iar al doilea strat ascuns ia ieșirea primului strat ascuns Stratul de ieșire preia rezultatul celui de-al doilea strat ascuns ) De exemplu, dacă setați toate greutățile la , atunci toți neuronii vor scoate , iar gradientul de eroare va fi același pentru toți neuronii din stratul ascuns dat Apoi, pasul de coborâre a gradientului va actualiza toate greutățile din fiecare strat exact la fel, astfel încât toate să rămână egale Cu alte cuvinte, în ciuda faptului că are sute de neuroni pe strat, modelul dvs va se comportă ca și cum ar exista un singur neuron pe strat nu va evolua Partea II Rețele neuronale și învățarea profundă hidr:) logits = nauron layar(b idden , n outputs, name= ) rețea care trece funcția de activare multivariabilă: din motive legate de optimizare, vom efectua calculul multivariabil mai târziu După cum v-ați putea aștepta Ei bine, TensorFlow vine cu o mulțime de funcții la îndemână pentru a crea straturi de rețele neuronale, așa că adesea nu este necesar să-ți definești propria funcție ca cea pe care tocmai ai definit-o în interiorul stratului Se va ocupa de crearea unor ponderi și părtiniri variabile, numite și respectiv, folosind o strategie de inițializare adecvată, iar prin folosirea unui argument se poate seta o funcție de activare În capitol veți vedea că funcția acceptă și parametrii de regularizare Să corectăm codul anterior pentru a folosi o funcție în loc de neuron Doar înlocuiți creația secțiunea cu următorul cod: tf name scop y, name= ) Apelarea funcției este echivalentul utilizării unei funcții de activare multivariabilă și apoi calcularea entropiei încrucișate, dar este mai eficientă și gestionează bine cazurile marginale: când logit-urile sunt mari adică